运动估计方法通常采用传感器融合技术(例如Kalman滤波器)来处理单个传感器故障。最近,已经提出了基于深度学习的融合方法,提高了性能并需要更少的模型特定实现。但是,当前的深融合方法通常认为传感器是同步的,这并不总是实用的,尤其是对于低成本硬件。为了解决这一局限性,在这项工作中,我们提出了AFT-VO,这是一种新型的基于变压器的传感器融合体系结构,以估算来自多个传感器的VO。我们的框架结合了异步多视觉摄像机的预测,并说明了来自不同来源的测量值的时间差异。我们的方法首先采用混合密度网络(MDN)来估计系统中每个相机的6-DOF姿势的概率分布。然后引入了一个新型的基于变压器的融合模块AFT-VO,该模块结合了这些异步姿势估计以及它们的信心。更具体地说,我们引入了离散器和源编码技术,该技术使多源异步信号的融合。我们在流行的Nuscenes和Kitti数据集上评估了我们的方法。我们的实验表明,用于VO估计的多视图融合提供了强大而准确的轨迹,在挑战性的天气和照明条件下都超过了艺术的表现。
translated by 谷歌翻译